MCP vs Function Calling

2025-05-01

MCP vs Function Calling

自从大语言模型（LLM）横空出世以来，如何将 LLM 与现有商业系统有效结合、让其真正赋能各类业务，已成为当前最热门的研究方向之一。

Function Calling 和 Model Context Protocol（模型上下文协议，MCP）是实现这种让 LLM 与外部系统进行交互的两种关键技术概念。然而二者在概念上有所重叠，很多人并不能讲出两种概念的区别与联系。

Function Calling

外部系统通常会以函数（function）的形式进行封装，LLM 通过函数调用（function calling）可以实现与外部系统的交互。

工具（Tool）

Function 这个术语实际上已经废弃了，取而代之的是 Tool。Tool 泛指指一切 LLM 能够调用的外部工具。Tool 相比 function 要更加广义，只不过目前的 tool 只有 function calling 这一种形式，因此为了文章方便理解，就这里认为 function 与 tool 是等价的。

Function Calling 具体指的是 LLM 根据用户的自然语言输入，自主决定调用哪些函数，并进行格式化的函数调用的能力。一般的过程如下：

将用户的自然语言输入与已有函数的描述作为输入参数传给 LLM；
LLM 结合输入参数，决定调用哪些函数，并指明必要参数（如函数的入参），进行格式化（如 JSON、XML 格式）的输出；
用户端接收到 LLM 格式化的函数调用后，对本地的函数进行调用，得到结果；
将得到的函数结果传给 LLM，使得 LLM 有了所需的上下文信息。

Function Calling 时序图（来自 OpenAI 开发者文档）

Function Calling 实际上强调的是 LLM 本身的能力，一些经过特殊训练或调优的 LLM 能够根据用户的自然语言输入决定使用哪些函数，并按约定的格式表达出函数的调用。这里所描述的 “格式”，不同 LLM 提供商之间是可能有差异的。

假设我们有个叫做 get_weather 的 function，入参为地点 location，不同 LLM 提供商会给出不同的 function calling 格式：

OpenAI ChatGPT：

{
    "type": "function_call",
    "id": "fc_12345xyz",
    "call_id": "call_12345xyz",
    "name": "get_weather",
    "arguments": "{\"location\": \"Shanghai\"}"
}

Anthropic Claude：

{
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "<thinking>To answer this question, I will: 1. Use the get_weather tool to get the current weather in San Francisco. 2. Use the get_time tool to get the current time in the America/Los_Angeles timezone, which covers San Francisco, CA.</thinking>"
    },
    {
      "type": "tool_use",
      "id": "toolu_01A09q90qw90lq917835lq9",
      "name": "get_weather",
      "input": {"location": "Shanghai"}
    }
  ]
}

Google Gemini：

{
  "functionCall": {
    "name": "get_weather",
    "args": {
      "location": "Shanghai"
    }
  }
}

Model Context Protocol (MCP)

当 LLM 发起了一个 function calling 后，这个 calling 最终会需要外部系统进行执行，而 MCP 正是提供了一个通用的协议框架调用外部系统执行这个 function calling。本文不会对 MCP 的概念进行具体说明，假设读者已了解。

带入到上文所述的 function calling 步骤，MCP 实际上规范的就是步骤 3，也就是函数的具体执行过程。无论 LLM 返回的 function calling 是什么样子的格式，在步骤 3 时都需要转换成 MCP 所规定的 API 数据结构（这一步转换应该是 MCP host 需要做的），并需要 LLM 用户侧按照 MCP 的规范进行响应的处理。例如对于上文的 get_weather ，MCP server 接收到的请求结构必须是这样的 JSON-RPC：

{
  "jsonrpc": "2.0",
  "id": 129,
  "method": "tools/call",
  "params": {
    "name": "get_weather",
    "arguments": {
      "location": "Shanghai"
    }
  }
}

MCP client 接收到的响应则是类似于这样的 JSON-RPC：

{
  "jsonrpc": "2.0",
  "id": 2,
  "result": {
    "content": [
      {
        "type": "text",
        "text": "Current weather in Shanghai:\nTemperature: 12°C\nConditions: Partly cloudy"
      }
    ],
    "isError":false
  }
}

MCP 标准化了 LLM 应用与外部系统的以下交互过程：

动态地提供对可用函数的标准化的描述（比如通过 tools/list API）；
标准化对外部系统的调用与结果的处理（MCP 规范了 MCP server 需要有哪些 API 能力，以及 API 的请求/相应数据结构）。

如果没有 MCP 这样的协议规范，不同团队的 LLM 应用需要：

自行维护可用函数列表；
外部系统的接入需要进行针对适配，不具有通用性。

现在只要一个 LLM 应用有 MCP client 的功能，那么它就一定能支持接入任何具有 MCP server 功能的外部系统，且不需要额外的适配成本，MCP 很好地构建了 LLM 应用的大生态。

MCP 由三个核心组件构成：Host、Client 和 Server。让我们通过一个实际场景来理解这些组件如何协同工作：

假设你正在使用 Claude Desktop (Host) 询问：“我桌面上有哪些文档？”

Host：Claude Desktop 作为 Host，负责接收你的提问并与 Claude 模型交互。
Client：当 Claude 模型决定需要访问你的文件系统时，Host 中内置的 MCP Client 会被激活。这个 Client 负责与适当的 MCP Server 建立连接。
Server：在这个例子中，文件系统 MCP Server 会被调用。它负责执行实际的文件扫描操作，访问你的桌面目录，并返回找到的文档列表。

整个流程是这样的：你的问题 → Claude Desktop(Host) → Claude 模型 → 需要文件信息 → MCP Client 连接 → 文件系统 MCP Server → 执行操作 → 返回结果 → Claude 生成回答 → 显示在 Claude Desktop 上。

这种架构设计使得 Claude 可以在不同场景下灵活调用各种工具和数据源，而开发者只需专注于开发对应的 MCP Server，无需关心 Host 和 Client 的实现细节。